Large language models (LLMs) have demonstrated excellent zero-shot generalization to new language tasks. However, effective utilization of LLMs for zero-shot visual question-answering (VQA) remains challenging, primarily due to the modality disconnection and task disconnection between LLM and VQA task. End-to-end training on vision and language data may bridge the disconnections, but is inflexible and computationally expensive. To address this issue, we propose \emph{Img2Prompt}, a plug-and-play module that provides the prompts that can bridge the aforementioned modality and task disconnections, so that LLMs can perform zero-shot VQA tasks without end-to-end training. In order to provide such prompts, we further employ LLM-agnostic models to provide prompts that can describe image content and self-constructed question-answer pairs, which can effectively guide LLM to perform zero-shot VQA tasks. Img2Prompt offers the following benefits: 1) It can flexibly work with various LLMs to perform VQA. 2)~Without the needing of end-to-end training, it significantly reduces the cost of deploying LLM for zero-shot VQA tasks. 3) It achieves comparable or better performance than methods relying on end-to-end training. For example, we outperform Flamingo~\cite{Deepmind:Flamingo2022} by 5.6\% on VQAv2. On the challenging A-OKVQA dataset, our method even outperforms few-shot methods by as much as 20\%.
translated by 谷歌翻译
GPT-3 (Generative Pre-trained Transformer 3) is a large-scale autoregressive language model developed by OpenAI, which has demonstrated impressive few-shot performance on a wide range of natural language processing (NLP) tasks. Hence, an intuitive application is to use it for data annotation. In this paper, we investigate whether GPT-3 can be used as a good data annotator for NLP tasks. Data annotation is the process of labeling data that could be used to train machine learning models. It is a crucial step in the development of NLP systems, as it allows the model to learn the relationship between the input data and the desired output. Given the impressive language capabilities of GPT-3, it is natural to wonder whether it can be used to effectively annotate data for NLP tasks. In this paper, we evaluate the performance of GPT-3 as a data annotator by comparing it with traditional data annotation methods and analyzing its output on a range of tasks. Through this analysis, we aim to provide insight into the potential of GPT-3 as a general-purpose data annotator in NLP.
translated by 谷歌翻译
空间红外的小型船舶检测旨在将小型船只与轨道轨道捕获的图像分开。由于图像覆盖面积极大(例如,数千平方公里),这些图像中的候选目标比空中基于天线和陆基成像设备观察到的目标要小得多,二聚体,更可变。现有的简短成像基于距离的红外数据集和目标检测方法不能很好地用于空间监视任务。为了解决这些问题,我们开发了一个空间红外的小型船舶检测数据集(即Nudt-Sirst-Sea),该数据集具有48个空间基红外图像和17598像素级的小型船上注释。每个图像覆盖约10000平方公里的面积,带有10000x10000像素。考虑到这些充满挑战的场景,考虑到这些微小的船只的极端特征(例如,小,昏暗,可变的),我们在本文中提出了多层Transunet(MTU-NET)。具体而言,我们设计了视觉变压器(VIT)卷积神经网络(CNN)混合编码器来提取多层次特征。首先将局部特征图用几个卷积层提取,然后馈入多级特征提取模块(MVTM)以捕获长距离依赖性。我们进一步提出了一种拷贝性衡量量 - 帕斯特(CRRP)数据增强方法,以加速训练阶段,从而有效地减轻了目标和背景之间样本不平衡问题的问题。此外,我们设计了一个焦点损失,以实现目标定位和形状描述。 NUDT-SIRST-SEA数据集的实验结果表明,就检测概率,错误警报率和联合交集的交集而言,我们的MTU-NET优于传统和现有的基于深度学习的SIRST方法。
translated by 谷歌翻译
图像文本检索(ITR)在桥接视觉和舌形式方面具有挑战性。对比度学习已被大多数先前的艺术所采用。除了有限的负面图像文本对外,约束学习的能力受到手动加权负对以及对外部知识的不认识的限制。在本文中,我们提出了新型耦合多样性敏感的动量约束学习(编码器),以改善跨模式表示。首先,发明了一种新颖的多样性对比度学习(DCL)体系结构。我们引入了两种模式的动态词典,以扩大图像文本对的比例,并且通过自适应负面对加权实现多样性敏感性。此外,编码器设计了两个分支。一个人从图像/文本中学习实例级的嵌入式,它还基于其嵌入为其输入图像/文本生成伪在线聚类标签。同时,另一个分支学会从常识知识图中查询以形成两种模式的概念级描述符。之后,两个分支都利用DCL来对齐跨模式嵌入空间,而额外的伪聚类标签预测损失则用于促进第二个分支的概念级表示学习。在两个流行的基准测试(即Mscoco和Flicker30k)上进行的广泛实验,验证编码器的表现明显优于最先进的方法。
translated by 谷歌翻译
对计算机视觉的自我监督学习取得了巨大的进步,并改善了许多下游视觉任务,例如图像分类,语义细分和对象检测。其中,诸如MAE和Beit之类的生成性自我监督的视力学习方法显示出令人鼓舞的表现。但是,它们的全球掩盖重建机制在计算上是要求的。为了解决这个问题,我们提出了本地蒙版重建(LOMAR),这是一种简单而有效的方法,在一个简单的变压器编码器上的7 $ \ times $ 7补丁中执行蒙版重建,从而提高了效率和准确性之间的权衡。在整个图像上全局掩盖重建。广泛的实验表明,Lomar在Imagenet-1K分类方面达到了84.1%的TOP-1准确性,优于MAE的MAE比0.5%。在以384 $ \ times $ 384的图像为审计的LOMAR进行了预审经后,它可以达到85.4%的TOP-1准确性,超过MAE的0.6%。在MS Coco上,Lomar在0.5 $ \ text {ap}^\ text {box} $上以0.5 $ \ text {ap}^\ text {box} $的优势在对象检测上和0.5 $ \ text {ap}^\ text^\ text {bask} $上的实例段上。 Lomar在预处理的高分辨率图像上特别有效,例如,它比MAE快3.1 $ \ times $,分类准确性为448 $ \ times $ 448 $ 448。这种本地掩盖的重建学习机制可以轻松地集成到任何其他生成的自我监督学习方法中。我们的代码可在https://github.com/junchen14/lomar中公开获得。
translated by 谷歌翻译
近年来,道路安全引起了智能运输系统领域的研究人员和从业者的重大关注。作为最常见的道路用户群体之一,行人由于其不可预测的行为和运动而导致令人震惊,因为车辆行人互动的微妙误解可以很容易地导致风险的情况或碰撞。现有方法使用预定义的基于碰撞的模型或人类标签方法来估计行人的风险。这些方法通常受到他们的概括能力差,缺乏对自我车辆和行人之间的相互作用的限制。这项工作通过提出行人风险级预测系统来解决所列问题。该系统由三个模块组成。首先,收集车辆角度的行人数据。由于数据包含关于自我车辆和行人的运动的信息,因此可以简化以交互感知方式预测时空特征的预测。使用长短短期存储器模型,行人轨迹预测模块预测后续五个框架中的时空特征。随着预测的轨迹遵循某些交互和风险模式,采用混合聚类和分类方法来探讨时空特征中的风险模式,并使用学习模式训练风险等级分类器。在预测行人的时空特征并识别相应的风险水平时,确定自我车辆和行人之间的风险模式。实验结果验证了PRLP系统的能力,以预测行人的风险程度,从而支持智能车辆的碰撞风险评估,并为车辆和行人提供安全警告。
translated by 谷歌翻译
嘈杂的标签通常在现实世界数据中找到,这导致深神经网络的性能下降。手动清洁数据是劳动密集型和耗时的。以前的研究主要侧重于加强对嘈杂标签的分类模型,而对嘈杂标签的深度度量学习(DML)的鲁棒性仍然较少。在本文中,通过提出与DML的内存(棱镜)方法提出基于概率排名的实例选择来弥合这一重要差异。棱镜计算清洁标签的概率,并滤除潜在的噪声样本。具体地,我们提出了一种新方法,即Von Mises-Fisher分配相似性(VMF-SIM),通过估计每个数据类的VON MISES-FISHER(VMF)分布来计算这种概率。与现有的平均相似性方法(AVGSIM)相比,除了平均相似度之外,VMF-SIM还考虑每个类的方差。通过这种设计,所提出的方法可以应对挑战的DML情况,其中大多数样本是嘈杂的。在合成和现实世界嘈杂的数据集中的广泛实验表明,拟议的方法在合理的培训时间内实现了高达@ 1的精度高达8.37%的精度@ 1。
translated by 谷歌翻译
单帧红外小目标(SIRST)检测旨在将小目标与混乱背景区分开。随着深度学习的发展,基于CNN的方法由于其强大的建模能力而在通用对象检测中产生了有希望的结果。但是,现有的基于CNN的方法不能直接应用于红外小目标,因为其网络中的汇总层可能导致深层中的目标损失。为了解决这个问题,我们在本文中提出了一个密集的嵌套注意网络(DNANET)。具体而言,我们设计了一个密集的嵌套交互模块(DNIM),以实现高级和低级特征之间的渐进互动。随着DNIM中的重复相互作用,可以保持深层中的红外小目标。基于DNIM,我们进一步提出了一个级联的通道和空间注意模块(CSAM),以适应增强多级特征。借助我们的DNANET,可以通过重复的融合和增强来充分整合和充分利用小型目标的上下文信息。此外,我们开发了一个红外的小目标数据集(即nudt-sirst),并提出了一组评估指标来进行全面的绩效评估。对公众和我们自我开发的数据集进行的实验证明了我们方法的有效性。与其他最先进的方法相比,我们的方法在检测概率(PD),假警报率(FA)和联合交集(IOU)方面取得了更好的性能。
translated by 谷歌翻译
红外小目标检测是红外系统中的重要基本任务。因此,已经提出了许多红外小目标检测方法,其中低级模型已被用作强大的工具。然而,基于低级别的方法为不同的奇异值分配相同的权重,这将导致背景估计不准确。考虑到不同的奇异值具有不同的重要性,并且应判别处理,本文提出了一种用于红外小目标检测的非凸张力低秩近似(NTLA)方法。在我们的方法中,NTLA正则化将不同的权重自适应分配给不同的奇异值以进行准确背景估计。基于所提出的NTLA,我们提出了不对称的空间 - 时间总变化(ASTTV)正则化,以实现复杂场景中的更准确的背景估计。与传统的总变化方法相比,ASTTV利用不同的平滑度强度进行空间和时间正则化。我们设计了一种有效的算法来查找我们方法的最佳解决方案。与一些最先进的方法相比,所提出的方法达到各种评估指标的改进。各种复杂场景的广泛实验结果表明,我们的方法具有强大的鲁棒性和低误报率。代码可在https://github.com/liuting20a/asttv-ntla获得。
translated by 谷歌翻译
The behaviors of deep neural networks (DNNs) are notoriously resistant to human interpretations. In this paper, we propose Hypergradient Data Relevance Analysis, or HYDRA, which interprets the predictions made by DNNs as effects of their training data. Existing approaches generally estimate data contributions around the final model parameters and ignore how the training data shape the optimization trajectory. By unrolling the hypergradient of test loss w.r.t. the weights of training data, HYDRA assesses the contribution of training data toward test data points throughout the training trajectory. In order to accelerate computation, we remove the Hessian from the calculation and prove that, under moderate conditions, the approximation error is bounded. Corroborating this theoretical claim, empirical results indicate the error is indeed small. In addition, we quantitatively demonstrate that HYDRA outperforms influence functions in accurately estimating data contribution and detecting noisy data labels. The source code is available at https://github.com/cyyever/aaai_hydra_8686.
translated by 谷歌翻译